在自然语言处理(NLP)中,通常从频率信息估计n-gram的似然比(LR)。然而,语料库只包含可能的n克的一小部分,并且它们中的大多数很少发生。因此,我们希望LR估算器用于低频和零频率N-GRAM。实现这一目标的一种方法是将n-gram分解成离散值,例如字母和单词,并占据LRS的乘积。但是,因为该方法处理大量离散值,所以估计的运行时间和内存用法是有问题的。此外,使用不必要的离散值会导致估计精度的恶化。因此,本文提出将上述方法与文档分类中使用的特征选择方法相结合,并表明我们的估计器为低频和零频率提供了有效和有效的估计结果。
translated by 谷歌翻译